ElevenLabs、最新STT「Scribe V2」発表　90以上の言語とKeyterm最大100語句に対応

ElevenLabsは2026年1月20日10時30分、文字起こしの精度基準を刷新する最新STT（音声認識）モデル「Scribe V2」を発表しました。APIと「Speech to Text」「Studio」などのプロダクトから提供し、90以上の言語に対応します。

狙いは、長尺・複雑な音声でも精度と安定性を維持し、字幕・キャプション制作や大量文字起こしで発生しやすい編集・校正のコストや手戻りを減らすことです。従来は話者の多さ、話速の変化、沈黙、固有名詞や専門用語、個人情報確認が精度低下時の負担増要因でした。

Scribe V2はKeyterm Promptingで最大100の単語・フレーズを指定でき、固有名詞の聞き取りを補助します。Entity Detectionでは個人情報や決済情報、医療データなどを最大56カテゴリで自動検知し、話者分離、単語レベルのタイムスタンプ、音イベントタグにも対応します。

同社は2022年設立で、プラットフォームはFortune 500企業の75％以上を含む数千社が利用しています。今後は高精度な文字起こしの安定運用が、業務の検索・編集可能な音声アーカイブ化や、多言語コンテンツ制作・ローカライズの効率化を後押しするとみられます。